temout/ling

/LING

Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) combinaciones de palabras (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: combinaciones de palabras

Is in goldstandard

1
paper corpusSignosTxtLongLines399 - : El uso de colocaciones suele extenderse a diferentes partes de la definición, como en notas explicativas, ejemplos, en el contorno (sin y con demarcación) y fórmulas introductorias restrictivas (Ruíz, 2007) (Serra, 2012); sin embargo, hemos observado que muchas definiciones de verbos inician también con una colocación, es decir, tomando la posición de genus o hiperónimo inmediato, considerando que las definiciones lexicográficas de los verbos se adaptan en su mayoría al tipo de definición aristotélica (Battaner & Torner, 2008). Bajo este planteamiento, nuestro trabajo se centra en identificar de manera automática combinaciones de palabras que tengan como restricción las siguientes características: (i) la distribución de las palabras en las combinaciones debe darse de la siguiente manera^[28]2: verbo + sustantivo ( VS ), verbo + preposición + sustantivo ( VPS), verbo + adverbio ( VR) y verbo + adjetivo ( VA), y (ii) tienen que ser empleadas al inicio de definiciones de verbos.

2
paper corpusSignosTxtLongLines399 - : El proceso que seguimos para identificar y extraer las combinaciones de palabras que consideramos candidatas a ser colocaciones se divide en dos fases:

3
paper corpusSignosTxtLongLines415 - : en cambio, al aplicar el algoritmo tendremos evidencias claras de que en estas combinaciones de palabras hay un error (véase Tabla 2):

4
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe. Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28 ). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

5
paper corpusSignosTxtLongLines415 - : El punto débil de los correctores gramaticales basados en el análisis estadístico de la frecuencia de las palabras del texto es que, como vimos en el apartado 4, solo identifican errores que puedan ser inferidos analizando información procedente de las combinaciones de palabras adyacentes –lo cual nos puede llevar a pensar que hay fallos donde en realidad no los hay (falsos positivos) o a no detectar otros que sí lo son (falsos negativos)–, como bien resume Chen (2009), tras su análisis de varios correctores de inglés:

Evaluando al candidato combinaciones de palabras:

1) verbo: 4 (*)
2) definiciones: 3
3) frecuencia: 3 (*)
4) algoritmo: 3 (*)

combinaciones de palabras
Lengua: spa
Frec: 22
Docs: 4
Nombre propio: / 22 = 0%
Coocurrencias con glosario: 3
Puntaje: 3.870 = (3 + (1+3.8073549220576) / (1+4.52356195605701)));
Candidato aceptado

No se encontraron referencias bibliográficas sociadas al/ alos término(s)

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)